智能论文笔记

A Benchmark for Out of Distribution Detection in Point Cloud 3D Semantic Segmentation

Lokesh Veeramacheneni , Matias Valdenegro-Toro

分类：计算机视觉 | 机器学习

2022-11-11

Safety-critical applications like autonomous driving use Deep Neural Networks (DNNs) for object detection and segmentation. The DNNs fail to predict when they observe an Out-of-Distribution (OOD) input leading to catastrophic consequences. Existing OOD detection methods were extensively studied for image inputs but have not been explored much for LiDAR inputs. So in this study, we proposed two datasets for benchmarking OOD detection in 3D semantic segmentation. We used Maximum Softmax Probability and Entropy scores generated using Deep Ensembles and Flipout versions of RandLA-Net as OOD scores. We observed that Deep Ensembles out perform Flipout model in OOD detection with greater AUROC scores for both datasets.

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

A Dataset and Baseline Approach for Identifying Usage States from Non-Intrusive Power Sensing With MiDAS IoT-based Sensors

Bharath Muppasani , Cheyyur Jaya Anand , Chinmayi Appajigowda , Biplav Srivastava , Lokesh Johri

分类：人工智能 | 机器学习

2022-08-30

国家识别问题旨在识别任何系统（例如建筑物或工厂）的权力使用模式。在这篇挑战论文中，我们可以从美国和印度的8个制造，教育和医疗机构的机构中提供电力使用数据集，并提供基于机器学习的最初基于机器学习的解决方案，以此作为社区加速该领域研究的基准。

translated by 谷歌翻译

A CNN-LSTM-based hybrid deep learning approach to detect sentiment polarities on Monkeypox tweets

Krishna Kumar Mohbey , Gaurav Meena , Sunil Kumar , K Lokesh

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-25

人们最近开始通过社交网站上用户生成的多媒体材料来传达自己的思想和观点。此信息可以是图像，文本，视频或音频。近年来，这种模式的发生频率有所增加。 Twitter是最广泛使用的社交媒体网站之一，它也是最好的地点之一，可以使人们对与蒙基波疾病有关的事件有一种了解。这是因为Twitter上的推文被缩短并经常更新，这两者都促成了平台的角色。这项研究的基本目标是对人们对这种情况的存在的各种反应进行更深入的理解。这项研究重点是找出个人对猴蛋白酶疾病的看法，该疾病介绍了基于CNN和LSTM的混合技术。我们已经考虑了用户推文的所有三个可能的极性：正，负和中立。使用CNN和LSTM构建的架构来确定预测模型的准确性。推荐模型的准确性在Monkeypox Tweet数据集上为94％。其他性能指标（例如准确性，召回和F1得分）也用于测试我们的模型和最大程度和资源有效的方式。然后将发现与更传统的机器学习方法进行比较。这项研究的发现有助于提高对普通人群中蒙基托感染的认识。

translated by 谷歌翻译

Multimodal Event Graphs: Towards Event Centric Understanding of Multimodal World

Hammad A. Ayyubi , Christopher Thomas , Lovish Chum , Rahul Lokesh , Yulei Niu , Xudong Lin , Long Chen , Jaywon Koo , Sounak Ray , Shih-Fu Chang

分类：计算机视觉 | 自然语言处理

2022-06-14

了解多媒体内容中描述或显示的事件彼此相关是开发可用于真实世界媒体的强大人工智能系统的关键组成部分。尽管许多研究专门用于文本，图像和视频域中的事件理解，但没有一个研究探索事件跨域中经历的复杂关系。例如，新闻文章可能会描述“抗议”事件，而视频显示“逮捕”事件。认识到视觉“逮捕”事件是更广泛的“抗议”事件的一个子事件，这是一个具有挑战性但重要的问题，但前面的工作尚未探讨。在本文中，我们提出了多模式事件关系关系的新任务，以识别这种跨模式事件关系。我们贡献了一个大规模数据集，该数据集由100K视频新文章对组成，以及密集注释的数据的基准。我们还提出了一种弱监督的多模式方法，该方法将来自外部知识库（KB）的常识性知识整合在一起，以预测丰富的多模式事件层次结构。实验表明，我们的模型在我们提出的基准上优于许多竞争基线。我们还对模型的性能进行了详细的分析，并建议未来研究的方向。

translated by 谷歌翻译

Deep network for rolling shutter rectification

Praveen K , Lokesh Kumar T , A. N. Rajagopalan

分类：计算机视觉

2021-12-12

CMOS传感器采用行明智的采集机制，同时成像一个场景，这可能导致已知被称为捕获图像中的滚动快门（RS）失真的不希望的运动伪影。现有的单图像RS整流方法尝试通过使用针对特定的场景量身定制的算法来计算这些扭曲，该算法根据具有已知的地面真理运动参数的内在相机参数或基于学习的框架的信息。在本文中，我们提出了一个端到端的深神经网络，用于单幅图像RS整流的具有挑战性的任务。我们的网络由运动块，轨迹模块，行块，RS整流模块和RS再生模块（仅在训练期间使用）组成。当轨迹模块将估计的运动参数拟合到三阶多项式时，运动块预测输入RS失真图像的每一行的摄像机姿势。行块预测必须与目标I.E中的每个像素相关联的相机运动，RS整流图像。最后，RS整流模块使用运动轨迹和行块的输出来扭曲输入RS图像以到达畸变互联图像。为了在训练期间更快的收敛，我们还使用RS再生模块，该RS再生模块将输入RS图像与估计的运动参数失真的地面真理图像进行比较。我们模型中的端到端制定不会将估计的动作限制为地面真理运动参数，从而成功地将RS图像与复杂的现实生活相机运动进行了整理。合成和实时数据集的实验表明，我们的网络在定性和定量上占据了现有技术的现有技术。

translated by 谷歌翻译